    La recerca lingüística en la TA

    La recerca lingüística pot contribuir molt al desenvolupament de la Traducció Automàtica, i al problema fonamental de les divergències en la traducció, amb observacions de fenòmens, amb tècniques i teories que la recerca en TA pot adoptar i combinar amb mètodes estadístics d'anàlisi de corpus.La investigación lingüística puede contribuir mucho al desarrollo de la Traducción Automática, y al problema fundamental de las divergencias en la traducción, con observaciones de fenómenos, con técnicas y teorías que la investigación en TA puede aportar y combinar con métodos estadísticos de análisis de corpus.Linguistic research has a great deal to contribute to the development of machine translation, as well as to the fundamental problem of discrepancies in translation, in the form of observations regarding phenomena, and of techniques and theories which research into MT can adopt and combine with statistical methods for the analysis of corpora

    Holaaa!! Writin like u talk is kewl but kinda hard 4 NLP

    We present work in progress aiming to build tools for the normalization of User-Generated Content (UGC). As we will see, the task requires the revisiting of the initial steps of NLP processing, since UGC (micro-blog, blog, and, generally, Web 2.0 user texts) presents a number of non-standard communicative and linguistic characteristics, and is in fact much closer to oral and colloquial language than to edited text. We present and characterize a corpus of UGC text in Spanish from three different sources: Twitter, consumer reviews and blogs. We motivate the need for UGC text normalization by analyzing the problems found when processing this type of text through a conventional language processing pipeline, particularly in the tasks of lemmatization and morphosyntactic tagging, and finally we propose a strategy for automatically normalizing UGC using a selector of correct forms on top of a pre-existing spell-checker.Postprint (published version

    El futur de les llengües en l’era digital: Oportunitats i bretxa lingüística

    En aquest article reflexionem sobre com impactarà la revolució digital en la supervivència de les llengües en un futur no gaire llunyà. Si una cosa tenim clara és que el llenguatge humà serà el mitjà de comunicació predominant entre les persones i la tecnologia i entre les persones i el coneixement col·lectiu i la informació del món sencer. Efectivament, l’ús d’una llengua o d’una altra determina la quantitat d’informació a la qual es pot accedir, així com els serveis disponibles. La clau és el bagatge tecnològic amb què les diferents llengües s’enfronten al repte digital. La riquesa dels recursos tecnològics de cada llengua afectarà crucialment les seves possibilitats d’arribar amb bona salut al segle XXII. Les llengües en risc més immediat, evidentment, són aquelles afectades per la “diglòssia digital”: els parlants bilingües d’una llengua regional i d’una llengua de la globalització, abans que perdre el tren digital, opten per la llengua gran i deixen de banda la que no participa en el progrés tecnològic. Els efectes que això pot tenir en la diversitat lingüística de l’ecosistema digital, i per extensió en el món, són devastadors

    Results from the ML4HMT-12 shared task on applying machine learning techniques to optimise the division of labour in hybrid machine translation

    We describe the second edition of the ML4HMT shared task which challenges participants to create hybrid translations from the translation output of several individual MT systems. We provide an overview of the shared task and the data made available to participants before briefly describing the individual systems. We report on the results using automatic evaluation metrics and conclude with a summary of ML4HMT-12 and an outlook to future work

    English-Catalan Neural Machine Translation in the Biomedical Domain through the cascade approach

    This paper describes the methodology followed to build a neural machine translation system in the biomedical domain for the English-Catalan language pair. This task can be considered a low-resourced task from the point of view of the domain and the language pair. To face this task, this paper reports experiments on a cascade pivot strategy through Spanish for the neural machine translation using the English-Spanish SCIELO and Spanish-Catalan El Peri\'odico database. To test the final performance of the system, we have created a new test data set for English-Catalan in the biomedical domain which is freely available on request.Comment: Full workshop proceedings can be found at https://multilingualbio.bsc.es/wp-content/uploads/2018/03/LREC-2018-PROCEEDINGS-MultilingualBIO.pd

    Cas d'integració de la TA : Microsoft

    Es presenta el sistema MSR-MT, un sistema híbrid de TA desenvolupat pel grup de Processament de Llenguatge Natural a Microsoft Research, gràcies al qual es podran traduir automàticament a diverses llengües, tots els articles encara no traduïts de la base de coneixement desenvolupada pels Serveis de Suport de Productes (Product Support Services, PSS) de Microsoft.Se presenta el sistema MSR-MT, un sistema híbrido de TA desarrollado por el grupo de Procesamiento de Lenguaje Natural de Microsoft Research, gracias al cual se podrán traducir automáticamente a diversas lenguas, todos los artículos aún sin traducir de la base de conocimiento desarrollada por los Servicios de Soporte de Productos (Product Support Services, PSS) de Microsoft.This article presents the MSR-MT system, a hybrid MT system developed by Microsoft Research's Natural Language Processing group. MSR-MT will make it possible to automatically translate all the as-yet untranslated articles in the knowledge base developed by Microsoft's Product Support Services (PSS) to different languages

    TRADE (MLAP93/003)

    La Traducción Automática se considera una de las aplicaciones más importantes de la Ingeniería Lingüística, desde el punto de vista comercial. A pesar de que el problema de la TA está lejos de haber sido resuelto, se pone de manifiesto la necesidad de disponer de productos operativos que cubran, al menos parcialmente, la demanda del mercado en este sentido, proporcionando ayudas y herramientas para la traducción..

    Transfer Learning with Shallow Decoders: BSC at WMT2021’s Multilingual Low-Resource Translation for Indo-European Languages Shared Task

    This paper describes the participation of the BSC team in the WMT2021{'}s Multilingual Low-Resource Translation for Indo-European Languages Shared Task. The system aims to solve the Subtask 2: Wikipedia cultural heritage articles, which involves translation in four Romance languages: Catalan, Italian, Occitan and Romanian. The submitted system is a multilingual semi-supervised machine translation model. It is based on a pre-trained language model, namely XLM-RoBERTa, that is later fine-tuned with parallel data obtained mostly from OPUS. Unlike other works, we only use XLM to initialize the encoder and randomly initialize a shallow decoder. The reported results are robust and perform well for all tested languages.Postprint (author's final draft

    The strategic impact of META-NET on the regional, national and international level

    This article provides an overview of the dissemination work carried out in META-NET from 2010 until 2015; we describe its impact on the regional, national and international level, mainly with regard to politics and the funding situation for LT topics. The article documents the initiative's work throughout Europe in order to boost progress and innovation in our field.Peer ReviewedPostprint (author's final draft